金融人如何用好统计分析学, 金融视角下的统计分析
凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@sina.cn
所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
计量经济圈原创投稿:国有金融机构(信托公司)肖鑫
一、基础概念和公式
什么是统计分析?最直观的理解是,在一堆独立的、自身没有实际意义的数据中去寻找其可能存在的趋势、分布、概率等有意义的信息。更广范围看,统计分析是数学的一个分支,是开展科学研究工作的基本方法。
该学科内部又分为估测(Estimation)和检测(Hypothesis Testing)两大领域;本期文章先从估测开始,下一期将详细聊检测。
(一)数据处理
要从海量无章的数据中找出有用信息, 首先须对这些数据进行处理,一般来看有以下四类方法:粗分(Nominal)、排序(Ordinal)、等差 (Interval) 和比率 (Ratio)。
之后, 通过计算这些数据的均数、范围和波动性等 (在学术上称为统计参数,statistic or parameter), 从这些数据中找到一些基本信息。
例如, 波动(Volatility)是一个参数, 用于描述数据随其中心趋势的变化而变化,在金融领域通常是可用来描述风险。当然若这个参数太大, 说明这组数据无中心趋势(Central Tendency), 这意味数据间完全混乱(Chaos)。
但如何去度量波动呢?区间(Rang)和 MAD是计算波动的基本方法;这涉及到高等数学的一些工具如方差(Variance)和标准差 (Deviation)。
在上述的估测中有个基本假设--整体数据体量(population)有限。但在现实世界中, 全部的数据通常很难全部度量或者这样做不经济。
(二)数据抽样
故抽样技术孕育而生, 同时其误差不可避免地发生。关于抽样技术又可分为简单的随机抽样, 分层随机抽样(stratified random), 误差则由样本方差(sample variance)和样本标准差(sample deviation)来度量。
如上所诉,样本方差是将总体方差除以 n (样本大小)。利用方差的正平方根推导出标准误差的公式;这意味着当 n 越大, 样本误差则越小, 这与我们直觉一致。
二、统计参数与估测
(一)区间估测与置信程度
做好了前述概念理解、参数选择和样本的铺垫后,现在具体说说估测(Estimation)。一般看,估测有两种方法,一个是点估测一个是区间估测。但在实践中通常是从点估测开始, 利用正态分布变的概率特征,在一定置信区间内,试图去找一个可能波动的区间,这个过程在统计分析学里被称为构造置信区间(constructing Confidence Interval)。
直观地说,这个间隔用公式表示为:一个点估计值(实际上是样本均值),加(减)样本偏差并经可靠性系数(Z或T值)调整公式为什么是这样子?注意,这里有一些背景数学。正态分布、Z值、T值。
(二)参数选择
以T和Z值为例。大的假设或前提是,假设总的数据本体(Population)符合正态分布特征,我们具体来分析其某段样本的特征如峰态(Kurtosis)、偏离度(Skewness)或其他形式的背离正态分布的情形。
实务中选择Z或T是两难问题。因为在现实世界中,总体数据的方差未知,样本量也不一定够。因此,T于Z而言是一个很好替代。此外置信度的选择与其对应的是置信区间取值存在一个平衡的问题;换句话说,给定样本量,较高的置信度需要较宽的置信区间,这意味着该估计值可能过于宽泛,以至于在统计学上没有意义。
三、假设检验
上述讲完统计参数与估计推测的基本原理后便进入了假设检验(Hypothesis testing)环节。也就是说,估计推测(Estimation)以及检验(Hypo-Test)构成了统计学领域的全部范畴。
当在讨论统计推测或估计时,我们实际是一定置信区间内(Degree of Confidence)来估计某个参数的值或某个区间范围。假设检验的关注重点则是,在给定某参数值的初始假设后, 在一定的置信区间内来考量这一假设是否站得住脚。当然统计学中的是否站得住脚是由一系列量化分析、抽样检测、数据分布和置信区间选择来论证是否具备统计学显著性或意义。关于这个过程,以下总结出7个基本工作步骤。
(一)统计检验标准工作流程
假设检验通常有7个标准步骤:
步骤一,确定初始假设及其对立面(Hnull; H alternative)。
步骤二, 甄别被检测数据的分布规律并选用合适的统计检测参数。
步骤三,确定置信度与数据自由度。
步骤四, 确定判断规则。
步骤五,计算统计参数(在第二个步骤中充分识别和理解数据的分布特征和参数筛选后,用样本数据来计算)。
步骤六,甄别决策结果(是否出现两类错误,Type I II error)。
步骤七,结合现实世界实际情况科学合理应用该结果。
(二)应用过程中的主要事项
上述标准步骤在实际操作中有较多细微之处需注意,主要总结如下:
要点一,假设检验从逻辑上讲其实是试图建立一个初始假设 (Hø), 并找到否认或拒绝这一初始假设的证据。因此,换一句话说,接受 Hø 不是因为它真实或正确,而是说我们在检验中没有找到重要的统计证据来拒绝它。
为什么?因为在假设检验中存在两种类型的错误且这两种错误是此消彼长的关系。(第一种类型错误是指拒绝零假设但它实际上是正确的 (由α或alpha表示)。第二种类型错误是指当零假设其实是不正确时 (由β或 beta 表示) 但我们的检测系统没有拒绝它)。
要点二,选取合适的统计参数的基础是对数据分布规律的理解(如平均数、方差的规模,样本大小等),一般来看遵循以下建议:
分布特征 | 数据本体的方差 | 样本规模 | 建议适用的统计参数 |
正态 | 已知 | 偏小 | z |
正态 | 已知 | 够大 | z |
正态 | 未知 | 偏小 | t |
正态 | 未知 | 够大 | t or z |
非正态 | 已知 | 偏小 | 暂无合适参数 |
非正态 | 已知 | 够大 | z |
非正态 | 未知 | 偏小 | 暂无合适参数 |
非正态 | 未知 | 够大 | t or z |
要点三,参数计算的通用公式是
一定程度上,该公式的基础逻辑在可以理解成实是在模拟Z-value的计算,对观察样本数做一个标准化处理的数学计算过程。
其隐含的逻辑是,在足够大的样本下,会认定数据本体是符合或接近正态分布规律的(也就是上篇文章提到过的Central Limit Theorem 法则)。
深入考虑,数据本体(Population)底层分布决定了我们应该使用何种统计数据或参数。它是通过使用上面讨论的 t 或 z 值来实施检验。事实上, 它是基于一个假设,也即我们上面反复提到的正态分布。
当然实际工作中还有其他分布类型(其实也是正态分布的变种)如卡方分布和F 分布, 此时用的参数则是X2和F。
要点四,显著性。该指标在统计学中由α或 alpha 表示, 显著性实际是指发生第一类错误(Type I error)的概率,或者是我们在Hnull为真时却拒绝Hnull的概率。
理论上虽然任何级别的阿尔法都是允许的,但实际上, 我们通常使用以下三种显著水平: 0.10 (拒绝零假设的一般证据)、0.05 (有力证据) 和 0.01 (非常有力的证据)
【举个例子---关于风险和收益的检测推演】
好了,铺垫这么多我们将这统计分析广泛的领域缩小到金融部门的实际应用中。 这里详细介绍收益和风险的统计测试程序, 换句话说 (翻译成统计语言), 通过上述7个步骤对平均值和波动性进行参数测试:
四、假设检验在金融领域的几个基础应用示例
(一)关于收益的检验(On Mean)
情景1, 当数据本体只有一个平均值(single Mean)。即H0是具体某数值。使用 z 或 t 统计参数。这一情况在前文中已阐述。也就是说直接计算出样本的算术平均值和样本方差,然后按照t参数的计算公式算出一个检测值并去t分布表中依据给定的自由度来查验显著度(主要由于相关的对立假设是“不等于”的含义,因此这是个双尾检测)。
情景 2, 金融行业常见的一种分析情景--比较不同的投资策略或基金经理的收益率。换句话说, 有两个均值(two Means)。因此, 假设这两种回报率是否不同。
具体如下:
第一步,原始假设是 M1=M2或 M1>M2 或 M2<M1?
第二步,甄别被检测数据的分布规律并选用核实的统计检测参数。
这里还有细微区分, 数据本体仍然假设为正态分布, 但其方差尚不知但只存在相同和不同两种可能(也可以理解为,我们检测的投资标的或市场数据的风险特征是否有差异)。
我们先说相同的可能,注意我们此种情况是在比较不同的投资策略或基金经理的收益率,因此他们投资标的或市场是一致的,如沪深市场。故在我们的检测中数据本体的偏离度(variance)或者是这个市场的风险特征是一致的,虽无法知道其风险程度具体是多少。
此时合适的统计参数仍然是t但此时需要做一定混合处理(pooling)。如下:
其中 Spooled 为两个被检测样本的混合方差(pooled variance),其具体计算公式为:
其中S1、S2分别为两个样本的标准差。
第三步,自由度也同时调整为n1+n2-2,显著度按照测试需要选择0.10 (拒绝零假设的一般证据)、0.05(有力证据) 和 0.01 (非常有力的证据)皆可。
第四步,确定判断规则。
根据自由度和置信度在 t-统计表中找到临界值 (注意, 这是一个双尾测试) 剩余的步骤与情景1叙述的相同。
情景2的另一种可能,当方差不能假设相同时。这种情况可以理解为,当我们在比较两个基金基金在投资沪深市场的业绩水平,但时间跨度较大,如20年,故数据本体的风险特征(方差)会有质的差异,此时虽仍然用t值的一般计算公式但不能再通过混合处理技术来体现两组数据的检测,而是直接采用各自的标准差,同时在自由度上做补充调整。
此时合适的统计参数仍然是t但此时需按照以下公式处理。如下:
其中S1、S2分别为两个样本的标准差,S12、S12为分别为S1、S2 的平方。此时要注意,自由度不再是n1+n2-2,而是调整为:
情景3,比较两个均投资于同一标的或市场的基金收益水平,且这两支基金的投资决策有互相影响的可能。我们的统计测试中需要考虑到这样的相关性。
此时t值的计算比较复杂。需要首先计算样本中每组观察样本的收益的差:
dmean =(1/n)(d1 + d2 + d3 .... + dn),其中 n 是每组观察样本的数量 (在我们的示例中, 我们有季度回报的季度数), 每个 d 是样本中每个观察值之间的差异。
接下来, 计算样本方差, 或 (d) 2/(n-1 )的所有偏差的总和, 并使用标准偏差 (Sd) 计算方差的正平方根。标准差 = Sd/(n)1/2。
最终T值的计算公式演变为:
T=(dmean-Hnull)/[Sd/(n)1/2].
其中, Sd2=∑(di-dmean)2/(n-1)
(二)关于风险的检验(On Variance)
情景1,数据本体仅一个方差(single varianceσ2)检测的目的是该方差是否等于某个具体数值或取值区间。
第一步,确定原始假设及其对立假设。类似上述关于收益的检验,此处不再赘述。
第二步,甄选统计参数。此种情形下对于数据本体的分布一般会理解为卡方分布(chi-square),对应的参数是χ2。(卡方实际上是一个类似于 t 分布的分布家族, 基本上遵守趋中法则。)
参数计算公式为:
χ2 = (n - 1)*s2
其中: n = 样本数, s2 = 样本方差。
自由度为 n – 1,其他步骤如同前述关于收益的检验中讨论的做法。其中取值需要去卡方分布表中查询,且主要考虑是否双尾检测。
情景 2检验多个方差是否相等时(一般是考察两类投资标的或市场的风险程度是否一致时),前提假设还是数据本体均是整体分布且所选取的样本都是随机和独立的。
此种情形下, 通常使用的统计参数是F, 它可以用来表示样本方差的比率。与卡方一样,F分布是一个不对称分布的家族 (在左侧由零约束)。F 族分布由两个自由度值定义: 分子 (df1) 和分母 (df1)。每个自由度都来自样本大小 (n1+n2-2)。
从样本数据中提取的 f 检验可以是S12/S22,也可以是S22/S12 。使用的比率以产生较大的数字。这样, f 测试只需要考虑大于1的值, 因为两个比率中的一个应该始终是1以上的数字。
其他的步骤与前述讨论的无差别故而不在赘述。
五、参数检验和非参数检验
迄今我们所讨论的都是建立在数据本体为正态分布(或其变类Chi-squared distribution、F distribution)的基本假设。
但实际工作中,受到样本数据体量限制或者数据本体本身属性特点,这种正态假设可能不成立,故非参数统计检验应此而生。下面对非参数检验做一个非常简单的概述。
非参数检测方法较前述参数方法而言更为小众和专业因此其手段方法适用性更窄。对比前述的参数检测方法,以下列式非参数检验方法的一些比较常用的手段:
检测目的 | 参数检验方法所使用的参数 | 非参数检验方法所使用的检验手段 |
Single mean(检测单一均值,方差类似) | t-test, z-test | Wilcoxian signed-rank test |
Differences between means(检测多个均值,方差类似) | t-test (or approximate t-test) | Mann-Whitney U-test |
Paired comparisons(数据组相关性检测等) | t-test | Sign test, or Wilcoxia |
推荐阅读:
2.1998-2016年中国地级市年均PM2.5数据release
4.2005-2015中国分省分行业CO2数据circulation
6.匹配方法(matching)操作指南, 值得收藏的16篇文章
9.实证研究中用到的135篇文章, 社科学者常用toolkit
计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈绝对六多精神:社科资料最多、社科数据最多、科研牛人最多、海外名校最多、热情互助最多、前沿趋势最多。如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭(戳这里),要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们独一无二的微信群和QQ群。在规则框架下社群交流讨论无时间限制。